Home

Home

26.6 일반화 성능 평가: 새로운 튜링 테스트

Home / 인공지능 (Artificial Intelligence, AI) / 제목: Embodied AI & Modern Control / Chapter 26. 일반 범용 로봇(Generalist Robot)을 향한 여정 / 26.6 일반화 성능 평가: 새로운 튜링 테스트

26.6 일반화 성능 평가: 새로운 튜링 테스트

26.6 일반화 성능 평가: 새로운 튜링 테스트
26.6.1 기존 벤치마크의 한계: 특정 태스크 성공률(Success Rate) 측정의 무의미함
26.6.2 오픈 월드 벤치마크(Open-World Benchmark): SIMA, Voyager 등 게임 환경과 물리 환경의 교차 평가
26.6.3 현실 세계(Real-world) 검증 프로토콜: 로봇의 ’상식’과 ‘물리적 추론’ 능력을 어떻게 측정할 것인가?

Generated by Rust Site Gen